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基于 变迁 图 编辑 距离 的 流程 相似 性 算法 


段 瑞 ， 方 欢 ， 方 贤 文 ， 詹 悦 
(安徽 理工 大 学 数学 与 大 数据 学 院 ,， 安徽 淮南 232001) 


摘 要 : 为 了 提高 从 企业 模型 库 中 查询 检索 模型 的 效率 ， 提 出 一 种 基于 变迁 图 编辑 距离 的 流程 相似 性 算法 。 首 先 ， 
给 出 变迁 图 的 概念 及 其 生成 方法 ; 其 次 ， 提 出 边 的 长 度 概念 ， 删 除 和 插入 边 的 代价 由 该 边 的 长 度 决定 ， 基 于 此 定义 
图 编辑 操作 及 其 代价 ， 并 用 节点 匹配 算法 计算 最 小 图 编辑 距离 ; 然后 ,给 出 两 个 过 程 模型 的 相似 性 概念 和 计算 方法 ; 
最 后 ， 通过 实验 验证 了 算法 的 正确 | 性 且 满足 七 条 相似 性 性 质 ， 并 验证 了 变迁 图 编辑 距离 满足 四 条 距离 性 质 。 
关键 词 : Petri 网 ; 相似 性 度量 ; 变迁 图 ; 图 编辑 距离 
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Process similarity algorithm based on editing distance of transition graph 


Duan Rui, Fang Huan, Fang Xianwen, Zhan Yue 
(School of Mathematics & Big Data, Anhui University of Science & Technology, Huainan Anhui 232001, China) 


Abstract: In order to improve the efficiency of querying and retrieving models from the enterprise model library, a process 
similarity algorithm based on the edit distance of transition graph is proposed. Firstly, the concept of the transition graph and 
its generation method are given. Secondly, the concept of the length of the edge is proposed. The cost of deleting and 
inserting the edge is determined by the length of the edge. Based on this, the graph editing operation and its cost are defined, 
and the node matching algorithm is used to calculate the minimum graph editing distance. Then, the Similarity concept and 
calculation method of the two process models are given. Finally, the correctness of the algorithm is verified and the seven 
similarity properties are satisfied, and the editing distance of the transition graph is verified to satisfy the four distance 
properties. 
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站 剖 诗 Weidlich 等 人 后 提 出 了 基于 行为 轮廓 ( BP ) 的 相似 度 度 量 

一 方法 , 该 方法 定义 了 弱 序 , 并 基于 弱 序 关系 提出 一 系列 关系 ， 

业务 流程 作为 企业 的 三 要 素 之 一 ， 流 程 模型 的 相似 性 度 ”统称 为 行为 轮廓 ， 该 方法 用 行为 轮廓 扩展 紧邻 变迁 关系 ， 有 
量 一 直 是 工作 流 研究 中 的 个 重要 方向 。 对 于 数 以 万 计 的 。” 效 地 满足 了 一 些 74R 算法 不 能 满足 的 相似 性 性 质 ， 但 仍 不 能 
模型 库 ， 高 效 且 精准 的 模型 检索 方法 成 为 业务 过 程 管理 的 关 ”满足 所 有 性 质 。 通 过 构造 任务 最 短 跟随 距离 矩阵 度量 流程 相 
键 ， 这 就 要 求 高 效 的 流程 相似 性 算法 叫 。 以 性 的 SSD7 算法 所 能 够 满足 所 有 相似 性 性 质 ， 但 是 SSDT 算 
目前 已 有 的 流程 相似 性 算法 主要 基于 以 下 三 个 方面 展开 ”法 每 次 计算 流程 相似 性 时 ， 需 要 根据 矩阵 的 秩 进 行 对 应 的 扩 
9 : 如 最 直观 的 相似 性 度量 方法 ， 关 注 任务 标签 、 事 件 或 其 展 确保 两 个 矩阵 的 秩 相 等 ， 使 得 算法 性 能 不 够 优良 。 
他 建 模 元 素 ，b) 从 模型 的 拓扑 结构 出 发 ， 关 注 模型 的 元 素 旨 图 匹配 和 图 编辑 距离 一 直 是 模型 相似 性 度量 的 3 
合 及 元 素 之 间 的 行为 关系 ; c) 基 于 行为 语义 的 相似 性 算法 。 段 ，Dijkman 等 人 外 描述 了 四 种 图 匹配 算法 ， 分 列 十 算 
为 了 验证 算法 的 性 能 ， 流 程 相似 性 领域 学 者 和 专家 提出 了 七 法 、 带 剪 校 的 穷 举 算法 、 流 程 启发 式 算法 及 4* 算法， 并 通过 
条 基本 的 相似 性 性 质 4 : 顺序 结构 漂移 不 变性 、 并 发 结构 。” 实验 评估 表明 : 贪心 算法 所 耗 时 间 远 低 于 其 他 算法 ，4'* 算 法 
漂移 不 变性 、 循 环 结构 漂移 不 变性 、 互 斥 结构 漂移 不 变性 、 的 精确 度 最 高 , 带 剪 枝 的 穷 举 算法 所 耗 时间 远 高 于 其 他 算法 。 
跨度 负 相 关 性 、 非 蔡 代 无 关 递 减 性 和 循环 序列 长 度 负 相关 性 。 图 编辑 距离 是 指 一 个 图 转换 成 男 一 个 图 需要 的 操作 代价 "9， 

Zha 等 人 中 提出 了 一 种 基于 变迁 紧邻 关系 的 相似 性 算 。 计算 流程 相似 性 需要 的 是 最 小 图 编辑 距离 ， 图 匹配 算法 即 通 
法 ， 称 为 TAR 算法 ， 该 算法 通过 考察 流程 变迁 的 两 两 紧邻 关 ”过 在 模型 比较 时 建立 节点 之 间 一 一 对 应 关系 ， 从 而 找到 最 小 
系 来 表征 流程 模型 的 相似 性 。 笑 明 等 人 口 提出 了 一 种 ZaR 算 图 编辑 距离 。 
法 的 改进 算法 TAR++ 算法 ， 创 造 性 的 为 TAR 增加 了 重要 性 系 针对 相似 性 度量 算法 仍 存在 的 一 些 问题 ， 如 不 能 满足 相 
数 ， 有 效 地 满足 了 一 些 TAR 算法 不 能 满足 的 相似 性 性 质 。 但 以 性 性 质 、 时 间 复 杂 度 较 高 、 空 间 爆 炸 、 灵活 性 较 低 、 计算 
TAR++ 算法 用 深度 优先 搜索 方法 为 紧邻 变迁 关系 分 配 重要 ” 值 与 预期 值 不 符 等 ， 本 文 提出 一 种 新 的 基于 变迁 图 编辑 距离 
性 ,算法 的 最 坏 时 间 复 杂 度 为 OV +E+ND ， 是 一 个 阶乘 级 世 的 流程 相似 性 算法 TGED ， 主 要 贡献 为 : a) 通 过 库 所 映射 ,把 
复杂 度 ， 且 TAR++ 相似 性 有 一 个 不 高 的 上 界 。 Petri 网 模型 转换 成 变迁 图 ， 即 把 Petri 网 模型 中 的 库 所 映射 
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成 变迁 图 中 的 边 ; b) 首 次 提出 边 的 长 度 概念 ， 编 辑 不 同 长 度 N=(P,T,F,Mo,50) 是 标签 Petri 网 系统 ; G=(V,E) 是 WEN 的 变 
的 边 所 需 代价 不 同 ; c) 取 一 个 变迁 图 到 男 一 个 变迁 图 所 需 操 。” 渤 图 ，V 是 节点 集合 且 UvV=T ，EcSVxV 是 边 集 合 。E 的 产 
作 的 最 小 代价 为 编辑 距离 ， 并 基于 此 计算 相似 性 ; d) TGED 算 生 方 式 为 : ={(ep,pe)VpeP}，, 记 边 (ep,pe) 的 前 端 节点 为 *P， 
法 有 一 个 较 大 的 上 界 ， 且 时 间 复 杂 度 较 低 。 后 端 节点 为 2" 。 特 殊 地 ， 若 也 <s 台 "pl ，? 映射 成 的 边 的 
1 预备 知识 前 端 节点 由 前 面 边 的 后 端 节点 确定 ，? 或 作为 互 斥 结构 的 收 


尾 ， 对 应 |。p| 条 边 ， 或 引发 一 个 循环 结构 ; 若 3pePl|pe>]， 
本 文 以 Petri 网 作为 形式 化 的 建 模 和 分 析 工 具 ， 在 介绍 ?引发 一 些 互 斥 分 支 ， 若 Pi,pss…sPj epeNpieez 
TGED 算法 之 前 ， 先 介绍 关于 Petri 网 的 预备 知识 。 Pee 基 …z#pje*e， 则 P 对 应 边 的 后 端 节点 将 引出 j 条 边 ， 且 每 
定义 1 标签 Petri 网 。 满 足下 列 条 件 的 一 个 五 元 组 。 条 边 由 一 个 该 节点 中 的 变迁 控制 ， 该 变迁 称 为 控制 变迁 。 
LN =(P,T, 了 ,>,0) 称 做 标签 Petri 网 ， 其 中 : P 是 库 所 ; 7 是 变 为 了 处 理工 作 流 网 首尾 是 特殊 结构 的 情况 ， 在 生成 变迁 
迁 ; F 是 流 关系 ; 王 是 表示 变迁 的 标签 集合 。 图 之 前 ， 人 工 为 工作 流 网 增加 开始 库 所 p, 和 变迁 1 、 结 束 库 
a) PUT#09; 所 和 变迁 上 ， 并 增加 四 条 边 分 别 为 (ps,4)、(6,i) 、 (0,1.) 、 
b) PMT=9,; (Po) 。 


c) Fc(PxT)U(TxP), 


中 47 >2U{e) 是 标签 函数 。 加 
记 X=PUT ,对 于 xeX ,xz 的 前 集 记 为 
“={yeX|O,d er) <“ 的 后 集 记 为 (a |—A(f) 


xe={yeX|(x,y) erF}, exe)={zeX 
[yeXA(x,y)eFA(z,y)eF 。 xeX 称 为 Petri 网 的 一 个 节 (e) (a) 


f 

点 ，f eF 称 为 Petri 网 的 一 个 边 ， 与 * 相 邻 的 边 称 为 x 的 边 ， 

包括 入 边 和 出 边 。 为 标签 Petri 网 添加 一 个 初始 标志 M 得 四 

ZN =(P,T,F,Mo,>,0) 称 为 标签 Petri 网 系统 ，Mo:P 一 NM ，N 为 

非 负 整数 加 
定义 2 工作 流 网 。 满足 下 列 条 件 的 三 元 组 WFN =(NPo) 

称 做 工作 流 网 , 其中: N=(P.7,F,Mo.2.0 是 标签 Petri 网 系统 ; (a 


ieP 是 开始 库 所 ; oeP 是 结束 库 所 。 


ae (eA 
b)*i=9,， 00=9, io 


A 
o 


c) wrePUT ， 存 在 一 条 从 i 到 o 的 路 径 包含 x。 (©) (d) 

本 文 所 讨论 的 模型 都 是 基于 Petri 网 的 安全 工作 流 网 , 称 1 图 编辑 操作 示例 (a)~(d) 
所 有 库 所 都 是 有 界 且 界 为 1 的 Petri 网 为 安全 的 , 称 库 所 最 多 Fig.1 Graph editing operation example (a)~(d) 
含有 一 个 标志 为 有 界 且 界 为 1 的 ， 其 中 初始 标志 为 整个 系统 如 图 2 所 示 , 左边 是 4 种 典型 的 Petri 网 模型 结构 : 顺序 、 
模型 的 触发 条 件 ， 初 始 标志 状态 下 ， 开 始 库 所 中 含有 一 个 标 互 斥 、 循 环 和 并 发 ， 右 边 是 对 应 的 变迁 图 。 图 2(a) 左 边 是 顺 


志 ， 其 他 库 所 不 含 标 志 。 为 了 方便 计算 相似 性 ， 提 出 一 种 不 ” 序 结构 ， 人 工 为 其 增加 开始 库 所 p, 和 变迁 1, 、 结 束 库 所 p。 和 
含 库 所 只 由 变迁 和 边 组 成 的 图 ， 称 为 变迁 图 。 变迁 1， 并 增加 4 条 边 分 别 为 : (Pa) 、GD 、(0,1) 、(epo) ， 
定义 3 图 编辑 距离 。 给 定 两 个 图 G=(WV,B) 和 新 得 到 的 模型 除 库 所 p, 和 p 外 有 4 个 库 所 ,依据 定义 5 对 应 
G=(W, 妃 )， 由 G 转换 成 G6; 所 需 操 作 的 最 小 代价 称 为 图 G, 和 4 条 边 ， 得 到 如 图 2(a) 的 右边 。 图 2(b) 左 边 是 内 咀 有 顺序 结 
G; 的 编辑 距离 ， 记 为 edis(G,G,) 。 构 的 互 斥 结构 ， 人 工 改 造 后 : 对 于 库 所 ss ， se*={b,4}， 即 
为 了 确定 图 编辑 距离 ， 需 要 定义 合理 的 图 编辑 操作 及 其 siePllse>d],， 且 ee={h}、ee={t}， 因 此 有 二。*z40.， 
代价 ， 本 文 总 结 己 有 的 图 编辑 操作 ， 并 给 出 一 个 新 的 概念 : 库 所 s 对 应 边 (4D,{6,68)) 的 后 端 节点 {5,68} 将 引出 两 条 边 ， 分 
边 长 度 ， 删 除 和 插入 边 由 边 的 长 度 决 定 。 别 由 4、 控制 ， 如 图 2(b) 右 边 。 图 2(c) 左 边 是 循环 结构 ， 

定义 4 图 编辑 操作 ,给 定 图 G=(V,E) , 定义 编辑 图 G 的 。” 对 于 库 所 5， 。*5={h,4}，, 则 5 对 应 的 边 的 前 端 节点 由 库 所 i 对 
基本 操作 为 : 节点 的 删除 、 插 入 、 蔡 换 及 边 的 删除 、 插 入 。 应 的 边 的 后 端 节点 决定 ， 即 {4} ， 此 时 5 引发 一 个 循环 结构 。 
(4 地 8) 表示 删除 节点 4 ，(e 坟 ) 表 示 插 入 节点 v，(u 祖 ) 表 图 2(d) 左 边 是 并 发 结构 ， 在 本 文 给 出 的 变迁 图 定义 中 ， 顺 序 
示 用 节点 "替换 节点 上 &， 同 理 表 示 边 的 删除 和 插入 。 结构 和 并 发 结构 是 最 易 处 理 的 结构 ， 图 2(d) 右 边 是 其 对 应 的 

如 图 1 所 示 , 从 图 1(a) 到 (b) 为 删除 边 (a,f) 和 (f,o) ,从 (b) ”变迁 图 。 
到 (c) 为 用 节点 8 替换 节点 ff ， 即 (8g 忆 f)， 从 (c) 到 (d) 为 插入 ”2.2 变迁 图 的 行为 语义 


边 (8,b) 、(g8,4) 和 (8,e) ， 经 过 一 系列 基本 的 图 编辑 操作 ， 图 变迁 图 作为 Petri 网 模型 的 无 库 所 简化 , 每 个 节点 可 能 含 
1(a) 转 换 成 (d)。 有 多 个 变迁 ， 因 为 一 个 库 所 能 够 引发 多 个 互 斥 分 支 。 同 理 ， 


变迁 图 中 一 个 节点 可 能 具有 多 条 边 : a) 作 为 柑 有 其 他 结构 的 


2 基于 变迁 图 的 相似 性 计算 互 尺 结构 的 收尾 ，b) 引 出 的 互 尺 分 支 具有 循环 结构 ，c) 并 发 


为 了 计算 两 个 流程 模型 的 相似 性 ， 首 先 需要 依据 它们 的 。 结构。 本 文 称 一 条 从 人 工 添 加 变迁 4 到 的 完整 执行 序列 为 
Petri 网 模型 生成 变迁 图 ， 其 次 为 变迁 图 定义 合理 的 基本 图 编 。 一 条 语句 ， 一 个 变迁 图 的 所 有 语句 组 成 变迁 图 的 语言 。 对 变 
辑 操作 及 其 代价 ， 最 后 求 得 最 小 代价 即 为 图 编辑 距离 。 迁 图 的 行为 保持 解释 如 下 : 

2.1 变 迁 图 的 生成 a) 变 迁 图 的 所 有 发 生 序 列 即 为 变迁 图 的 行为 语义 。 
定义 5 变迁 图 。 给 定 工作 流 网 WFN=(N,io) ， 其 中 变迁 图 中 的 边 由 变迁 控制 ， 边 上 的 变迁 决定 了 该 边 只 能 
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控制 变迁 引发 ， 如 图 ei ts hg 由 于 节点 只 含有 一 个 变迁 ， 当 该 变迁 被 引发 之 后 ， 即 可 以 引 
< 仁 二 估 } 2 人 > 和 < 全 全 jj 全 }> ， 若 边 上 为 空 ， 发 所 有 从 其 引出 的 边 ， 如 图 2(d) 中 变迁 图 的 发 生 序列 为 : 
则 默认 控制 变迁 为 该 边 的 前 端 节点 元 素 ; < {ob {bb {bh {ub {6} > 和 < 二] {8), {6 {0 {> ; 
变迁 图 中 只 含有 一 个 变迁 的 节点 引出 的 多 条 边 并 发 ， 可 b) 变 迁 图 中 节点 触发 条 件 : 以 该 节点 为 后 端 节点 的 边 被 
以 由 上 一 条 解释 , 即 该 节点 引出 的 边 默认 由 该 节点 元 素 控制 ， 引发 。 
a GP PP Le PL Po) 变迁 图 : 《ft 六 CFCC {ty ) 
A} Ctata Fu >t) 
变迁 图 : 
变迁 图 


二 、 一 万 
(ut 


变迁 图 : 


图 2 四 种 典型 的 Petri 网 模型 结构 (a)~(d) 及 对 应 的 变迁 图 
Fig.2 There are 4 typical Petri net model structures on the left (a)~(d),corresponding transition graph on the right 

2.3 图 编辑 操作 及 其 代价 一 个 变迁 标签 转换 成 男 一 个 变迁 标签 ， 所 需 操作 的 最 小 代价 

前 面 提 到 , 本文 给 出 的 图 编辑 基本 操作 有 : 节点 的 删除 、 ”为 两 个 变迁 标签 的 编辑 距离 ， 与 它们 中 模 值 最 大 的 比值 为 节 

插入 、 葵 换 及 边 的 删除 、 插 入 ， 本 节 主 要 为 这 些 基本 操作 赋 。 点 的 蔡 换 操作 代价 。 若 两 个 变迁 标签 完全 不 同 ， 则 替换 操作 

也 合理 的 代价 。 本 文 认为 节点 的 删除 、 插 入 为 单位 基本 操作 ， 代价 为 1 


包括 控制 变迁 的 插入 、 删 除 和 蔡 换 ， 赋 予 代价 1。 下 面 详 旨 如 图 3(a) 中 变迁 标签 "Looking jfor food" 到 图 3(b) 中 变迁 标 
介绍 节点 的 替换 和 边 的 删除 、 插 入 。 签 "Find food" 的 转换 所 需 最 小 操作 代价 为 10， 即 替换 4 个 单 


2.3.1 节 点 的 替换 
节点 的 替换 涉及 到 节点 中 变迁 标签 的 相似 性 ， 标 签 的 单 


位 字 删 除 、 插 入 和 蔡 换 代价 为 1， 通 过 一 系列 字符 串 操作 把 
dd food to th 
Old user login,New user Looking for 


Add food to tha 
Old user login,New user > 
b: Open app registration and login Mndfood Enler ashep So 


图 3 某 美 食 app 部 分 系统 模型 对 应 的 变迁 图 (a)~(b) 
Fig.3 Transition graph (a)~(b) corresponding to the system model of gourmet app 
2.3.2 边 的 删除 与 插入 定义 6 ”7GED 相似 性 。 给 定 两 个 工作 流 网 ， 它 们 对 应 的 
本 文 首 先 提 出 边 的 长 度 概 念 用 以 描述 删除 与 插入 该 边 的 ”变迁 图 分 别 为 G=WV,B) 和 GG=(W, 己 )，edis(G,G,) 为 图 G 和 


pn 科 i 区 .10 
位 字 ， 删 除 6 个 单位 字 ， 整 个 节点 的 蔡 换 代价 为 好 =0714 。 


代价 ， 库 所 i 和 o 对 应 的 边 长 度 为 1， 在 人 工 变迁 4 与 上 “之 间 G, 的 编辑 距离 ，|GFF|G.VHIG.EHG.CT| 表示 图 G 的 模 值 ， 其 中 
选取 一 条 最 长 简单 路 径 为 主干 ， 主 干 上 的 边 长 度 均 设 为 1， 1GV| 表 示 图 G 中 的 节点 数 ，|G.E| 表 示 图 G 中 所 有 边 的 近似 
主干 的 分 支 跨 主 干 的 长 度 为 该 去 分 支 的 近似 长 度 ， 节点 长 度 为 ” 长 度 之 和 ，16G.CT| 表 示 图 G 中 控制 变迁 数 ， 则 相似 性 为 
0。 sim(G..G,) =1 edis(Gi,G,) , 
如 图 3 所 示 ， 图 3(a) 转 换 到 (b) 除 用 "Find food" 蔡 换 l max(| G || G0) -2 

"Looking for food" 之 外 ， 还 需 删 除 节点 "Find jood" 及 两 条 边 对 于 定义 6 的 相似 性 计算 公式 中 分 母 减 去 2 是 因为 要 消 
({" Looking for food"},{" Find food"}) 除 人 工 添 加 的 变迁 的 影响 ， 如 图 3 所 示 ，edis(a,b)=3.714 ， 则 
({" Find food"},{"Add food to the shipping basket"})) 。 当 节点 a edis(a,b) 了 3714 -0735 ， 


"Find food" 和 节点 "Entera shop" 无 限 接近 时 ， 取 这 两 个 边 的 长 max(| al,|b|) 16-—2 


度 近似 值 1， 则 删除 代价 为 1 4 
2.4 相 似 性 计算 TSER 导读 
定义 3 可 知 ， 一 个 图 转换 成 另 一 个 图 所 需 操作 的 最 小 ”3.1 算法 设计 
代价 为 它们 的 编辑 距离 ， 基 于 变迁 图 编辑 距离 的 相似 性 度量 本 匠 给 出 基于 变迁 图 编辑 距离 的 流程 相似 性 算法 
方法 的 核心 是 求 变迁 图 的 最 小 编辑 距离。 7GED 。 由 前 面 可 知 ， 算 法 的 核心 是 生成 变迁 图 及 计算 变迁 
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小 编辑 距 


在 
作 代价 


图 编辑 距离 ,依据 变迁 图 
分 析 TGED 算法 , 算法 鼻 


离 ， 
GED 算 
不 是 


编辑 


段 


距离 可 以 轻松 的 计算 出 相似 性 。 


瑞 


1 行人 工 改造 工作 流 网 , 第 2~16 
行为 改造 后 的 工作 流 网 生成 变迁 图 ， 其 中 2~4 行 创 
化 变迁 图 ，5~15 依据 定义 5 计算 工作 流 网 的 变迁 恬 


建 并 初始 
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的 节点 匹配 ， 在 入 
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进行 节 


均 精 确 


点 匹配 ， 选 择 
终 得 到 最 
用 以 “ 剪 枝 ”。 
最 大 相似 性 的 映射 ”， 
度 和 运行 时 


优 解 , 该 算法 


文献 [9] 给 


计算 另 一 个 工作 流 网 的 变迁 
18~19 行 依据 定义 6 计算 相似 性 。 
法 第 17 行 计 算 
简单 的 过 程 , 文献 [6] 提 出 
法 迭代 过 程 中 ， 不 断 利 
尺 价 最 小 的 ( 相 
定义 了 剩余 节 
了 4 种 
即 最 小 图 编辑 距离 ， 依 
间 ， 本 文采 | 


图 ,第 17 行 计算 两 个 变迁 图 的 最 


? 


两 个 变迁 图 转换 所 需 的 最 小 操 
了 基于 4 搜索 算法 
用 当前 生成 的 部 分 
以 性 最 大 ) 进 行 扩 展 ， 最 
点 的 编辑 距离 下 界 估 值 ， 
匹配 算法 用 以 解决 “诱导 


E 
居 4 种 算法 的 平 
和 A* 入 


贪心 算法 法 。 


transition — graph — edit ~— distance — similarity ~ algorithm(W, W,) 


. artificial transformation workflow nets W,W, 
. Create graph G, = (Vi, Ei) 
-Vi=9 


.EE 


1 

2 

3 

4.E=9 

5. foreach ina certainorder seRP 
6 

7 

8 

9 


ff esl 
V=V UesUse 
E=E (es,se) 
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可 行 性 ， 第 
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实验 验证 


中 随机 获取 的 230 个 模型 
二 类 是 人 工 编 
的 满足 情况 。 
TGED 算法 的 ] 
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， 用 以 验证 TcED 算法 的 正确 性 
繁 的 70 个 模型 ， 


个 工作 流 


区 


E 输 入 两 
此 次 需要 念 证 


后 验证 TGED 算法 相 


网 
编辑 距离 折 
E 性 质 满 足 情况 。 


的 情况 


4.2 距 离 性 质 验 证 


FE 质 ， 


下 , 输 


站 出 


品 | 


对 本 文 提出 
度量 满足 4 
三 角 不 等 式 性 。 
对 称 性 : 两 个 工 


似 性 
性 、 


操作 都 是 对 称 的 ， 所 以 


对 称 的 ， 它 们 的 TGEP 相 


反 性 : 工作 流 网 和 自身 的 相似 性 
vWledis(W,W)=0] => sim(W,W)=1， 两 个 完全 相同 的 医 


何 操作 便 能 互相 转换 。 
非 负 性 : 两 个 


sim(G,G,)=1 


了 [编辑 距 
性 质 ， 


| 


edis(G,G,) 


作 流 网 之 间 
vW,Wledis(W,W,)=edis(W,W)] SS simW,W)= simW,W) ， 
两 个 模型 之 间 的 最 小 编辑 
似 局 


E 离 进行 距离 性 质 验 证 


分 别 为 对 入 


的 相 


E 满 足 对 称 性 。 


EE = 


以 三 角 不 等 式 性 


于 验证 


质 为 主 ; 


似 性 唯一 ， 


区 


操作 


为 ] ， 


多 


E 和 
TGED 算 


E 确 性 ， 即 TGED 算法 是 
0 之 间 的 数 ; 
最 


E，TGED 相 
称 性 、 自 反 性 、 非 负 


即 
到 编辑 


信 价 是 


即 
不 需要 任 


的 TGED 相似 性 计算 为 : 


max(| Gi|,| G0) -2 


» 


edis(G,G,)< max(|G||GD)-2 恒 成 立 ， 即 YW,W[lsim(Wi,WW)>0] 。 


等 


| 中 


if |es>1 = 不 等 式 VW,W, Wledis(W,W) 
10. the place in front of s determine s <edis(Wi,WW)+edis(W,W)] ， 即 给 定 任意 3 个 模型 及 它们 之 间 的 
VVvse 可 3 个 距离 ， 任 意 两 个 距离 之 和 大 于 等 于 第 三 个 距离 ， 这 是 
0 TGED 相似 性 最 重要 的 一 条 距离 性 质 ， 也 是 需要 实验 验证 的 。 
14. if on ESeNeezs ez...F5 0 首先 给 出 三 角 不 等 式 满足 率 的 定义 ， 假 设 实验 数据 集中 
15. incorporate the j edges of node se® into EF 共有 7 个 模型 ， 从 这 个 模型 中 任 取 3 个 ， 共 有 人 G 种 组 合 ， 
16. same as above, calculate transition graph G, of W, 若 共 有 w 种 模型 组 合 满足 三 角 不 等 式 ， 则 三 角 不 等 式 满足 率 
17. calculate minimum operating cost, recorded as edis(G,G,) 为 w/G 。 其 次 为 了 更 好 的 对 不 同 算法 的 三 角 不 等 式 满足 率 进 
18. calculate the modulus of G and G,, recorded separately |G|,|G, | 行 评估 ， 本 文采 取 3 次 实验 ， 得 到 3 组 三 角 不 等 式 满足 率 ， 
19. similarity between W, and W,, sim(W, W,) eh 每 次 从 模型 数据 集 中 随机 抽取 一 定数 量 里 的 模型 作为 实验 数据 
人 集 ，3 次 实验 抽取 的 模型 数量 分 别 为 94、117 和 123，3 次 实 
3.2 算 法 时 间 复 杂 度 分 析 验 数据 集 分 别 记 作 数据 集 1、2 和 3。 最 后 为 了 更 好 地 体现 
改造 工作 流 网 的 方法 为 : 人 工 添加 两 个 变迁 、 两 个 库 所 TGED 算法 的 优势 ， 除 引言 部 分 提 到 的 相似 性 算法 外 ， 本 节 
及 四 条 边 ， 时 间 复 杂 度 为 常数 量 级 ， 创 建 变 迁 图 及 初始 化 的 ”额外 加 入 两 个 算法 作为 实验 对 象 ， 分 别 为 : 因果 足迹 算法 
时 间 复 杂 度 同样 为 常数 量 级 ，7TGED 算法 第 5~16 行 生成 变迁 CF to 和 完整 触发 序列 算法 CFS 3。 
图 的 时 间 复 杂 度 分 别 为 04V1+|ED 和 odW1+| 包 ,用 摊 还 分 前 面 提 到 ， 插 入 和 删除 边 的 代价 由 该 边 的 长 度 决 定 ， 为 
析 即 可 得 到 该 时 间 复 杂 度 ; 用 贪心 算法 计算 最 小 图 编辑 距离 了 精确 验证 三 角 不 等 式 满足 率 ， 在 计算 图 编辑 距离 时 ， 插 入 
的 时 间 复 杂 度 为 OmindV WDx|V |xIWwD ,4* 算 法 计算 最 小 图 和 删除 边 的 代价 便 不 能 取 近 似 值 。 本 文 用 "n+" 表 示 比 长 度 
编辑 距离 的 最 坏 情 况 下 时 间 复 杂 度 为 Omin( V1,IW1))， 最 佳 mn" 大 一 点 点 的 长 度 ， 即 插入 和 删除 他 们 的 代价 。 
情况 下 时 间 复 杂 度 为 04V1xIWD 。 实 际 运行 时 ， 由 于 使 用 了 对 TAR++ 、TAR 、BP 、SSDT 、CF 、CFs 算法 和 本 文 提 
估 值 函数 ，A'* 算 法 的 运行 时 间 远 低 于 最 坏 时 间 复 杂 度 , 接近 ”出 的 TGED 算 法 进行 三 角 不 等 式 满足 率 实验 ， 表 现 如 图 4 所 
最 佳 时 间 复 杂 度 。 示 。 在 三 角 不 等 式 满足 率 方面 ， SSDT 、CF 和 CFS 算法 表现 
a Re 得 不 如 其 他 算法 ，7AR 算法 在 数据 集 1 上 未 达到 100% 满 足 
4 率 ， 表 现 最 好 的 是 74R++ 、BP 和 7GED 算 法 。 
本 文 的 实验 模型 主要 来 自 SAP 模型 库 ， 从 SAP 模型 库 更 全 面 的 算法 性 能 比较 还 包括 算法 运行 时 间 的 对 比 ， 如 
中 随机 获取 230 个 模型 作为 实验 对 象 。 为 了 验证 TGED 算 法 图 5 所 示 ，7TGED 算法 分 为 用 贪心 算法 进行 节点 匹配 的 
相似 性 性 质 的 满足 情况 ， 另 人 工 编纂 70 个 模型 ， 一 共 300 ”7GED(G) 算法 和 用 人 算法 进行 节点 匹配 的 TGED() 算法 。 在 
个 流程 模型 作为 实验 数据 。 计算 相似 性 花费 时 间 方 面 ，CFs 算法 明显 高 于 其 他 算法 ， 
4.1 实 验 设 计 TGED(G) 算法 所 需 时 间 比 其 他 算法 都 要 少 ， 但 在 准确 率 方面 
本 文 的 实验 机 器 环境 为 : Intel CoreCTM i5-7300HQ CPU ” 低 于 7GED(4) 算法 。 结 合 三 角 不 等 式 满足 率 得 出 结论 : TGED 
@ 2.50 GHz， 安 装 内 存 (RAM) 为 8.00 GB，64 位 操作 系统 。 算法 在 整体 性 能 表现 上 略 优 于 其 他 算法 。 
以 开放 的 业务 过 程 模型 管理 框架 BeehiveZ 系统 02 为 工具 ， 在 三 角 不 等 式 满足 率 上 贪心 算法 略 差 于 穷 举 算法 和 个 
BeehiveZ 具有 多 种 流程 管理 功能 ， 本 文 主要 用 到 查询 功能 ， 算法 ， 但 在 运行 时 间 上 有 一 定 的 优势 。 因 此 ， 在 对 精确 度 要 
即 检 索 功 能 。 实 验 数据 共 分 为 两 类 : 第 一 类 是 从 SAP 模型 库 求 很 高 的 情况 下 ,选择 4 算法 进行 节点 匹配 ， 在 对 精确 度 要 
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E 质 主要 有 顺序 结构 漂移 不 变性 、 


并 发 结构 漂移 不 变性 
性 、 跨 度 负 相 关 必 


FE、 互 斥 结构 漂移 不 变性 、 循 环 结构 漂移 
E 蔡 代 无 关 递 减 性 及 循环 序列 长 度 
型 集 为 人 工 编纂 的 70 个 流程 模型 


Ie 


造 一 个 含有 10 个 变迁 的 


结构 漂移 不 变性 。 无论 在 顺序 结构 中 于 部 分 
结构 模型 ， 新 模型 与 原 模型 的 相似 


nT 


顺序 结构 模型 作为 原 模 


如 图 6 所 示 ， 限 于 篇 


篇 幅 中 间 略 去 部 分 变迁 ， 在 原 模型 


DO II 
aA I, 


器 


的 变迁 之 间 插 入 新 变迁 ， 


得 到 11 个 新 模型 ， 图 略 。 把 所 有 模 


型 与 原 模型 的 相似 性 均 相 等 


变迁 图 ， 则 每 个 新 模型 变迁 图 到 原 模型 变迁 图 的 编 
即 所 有 新 模型 与 原 模型 的 相似 性 均 为 0.913 。 
并 发 结构 漂移 不 变性 。 对 流程 模型 中 的 顺序 结构 

告 成 的 并 发 结构 分 支 无 论 添 加 在 顺序 结构 
1 的 新 模型 与 原 模型 的 相似 性 均 相 等 。 
Oo 对 流程 模型 中 的 顺序 结构 


结构 分 支 无 论 添加 在 顺序 结构 的 哪 


性 质 4 循环 结 
造 ， 改 造成 的 循环 结 
型 与 原 模型 的 相似 性 均 相 等 


构 漂移 不 变性 。 对 流程 模型 中 的 顺序 结构 


吉 构 分 支 无 论 添加 在 顺序 结构 的 哪 


条 性 质 可 以 总 结 为 1 条 性 质 ， 即 结构 漂移 不 


个 4 条 性 质 中 的 一 部 分 ， 为 了 


术 前 4 条 性 质 。 图 7 中 模型 w 、N 、AN 分 
2、3、4 改造 原 模型 得 到 的 新 模型 ， 抽 取 其 中 一 
到 7 中 表示 ， 其 余 不 作 缆 述 。 对 于 性 质 2， 无 论 并 发 结 
构 分 支 添加 在 哪 部 分 上 ， 对 应 的 变迁 图 编辑 距离 均 为 3， 对 


呈 距 离 均 为 0.5; 对 村 


0.5 的 操作 均 是 
入 另 一 个 变迁 所 需 代价 。 
ONE OE OE NN 


编纂 的 原 模型 , 共 含 有 10 个 变迁 其 中 略 去 一 部 分 


Fig.6 Manually complied original model,there are 10 transitions and skip part 


3， 无 论 互 斥 结构 分 支 添加 在 哪 部 分 上 ， 对 应 的 变迁 
性 质 4， 无 论 循环 结构 分 支 添加 在 
上 ， 对 应 的 变迁 图 编辑 距离 均 为 3.5。 其 中 ， 代 价 为 
点 替换 ， 即 在 含 一 个 变迁 的 节点 中 播 


rE PE LP) 


NGCD->[CEH>GD OP OE OE OO 


Na : OE PEO CE PE > Le PG) > Le 
7 按 性 


> > > > 
质 2、3、4 改造 原 模型 得 到 的 新 模型 
Fig.7 New models obtained by modifying original model according to properties 2,3and4 
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图 8 相 比 于 N: 跨度 更 


Fig.8 Mutual exclusion structure larger than span of N: 


Ns: LP CAEP ONE 


二 


9 非 蔡 代 无 关 递减 性 


Fig.9 Non-replacement-independent decline 
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为 了 提高 从 企业 模型 库 中 查询 和 检索 模型 的 效率 ， 解 决 [12] 臣 年 华 , 金涛 ， 查 海平 ， 等. BeehiveZ: 一 个 开放 的 业务 过 程 模 型 管 
已 有 流程 相似 性 算法 存在 的 一 些 问 题 ， 本 文 提 出 基于 变迁 图 理 框架 [J]. np 2010, 47 (z1): 450-454. (Wu Nianhua, 
编辑 距离 的 流程 相似 性 算法 。 该 算法 通过 把 模型 转换 成 简单 Jin Tao, Cha Haiping, et al. BeehiveZ: an open business process model 
的 变迁 图 ， 计 算 最 小 变迁 图 编辑 距离 ， 得 出 相似 性 。 另 外 ， management framework. [J]. Computer Research and Development, 
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希望 通过 深入 研究 各 种 相似 性 度量 方法 ， 扩 展 相 


似 性 性 质 ， 优 化 TGED 算 法 或 提出 新 的 更 好 的 算法 ， 使 相似 
性 更 加 贴近 领域 专家 的 评估 结果 。 


